Страница 4 из 4 Выработку сложных вариантов поведения можно также обеспечить с помощью методов ^ иерархического обучения с подкреплением, которые представляют собой попытку решать задачи на нескольких уровнях абстракции, во многом аналогично методам планирования ΗΤΝ, описанным в главе 12. Например, цель "забить мяч" можно разделить на подцели "овладеть мячом", "приближаясь к воротам, обвести противников" и "ударить по воротам", а каждая из этих подцелей может быть дополнительно разделена на двигательные варианты поведения еще более низкого уровня. Фундаментальный результат в этой области получен Форестьером и Варайя [481], которые доказали, что варианты поведения низкого уровня с произвольной сложностью можно рассматривать как примитивные действия (хотя и учитывая при этом то, что они могут потребовать разного количества времени) с точки зрения вариантов поведения более высокого уровня, в которых они вызываются. В современных подходах [32], [397], [1177], [1478] эти результаты используются для создания методов, позволяющих предоставить агенту частичную программу, которая ограничивает поведение агента так, чтобы оно имело конкретную иерархическую структуру. После этого применяется обучение с подкреплением, чтобы агент определил наилучший вариант поведения, совместимый с этой частичной программой. Сочетание методов функциональной аппроксимации, формирования вознаграждения и иерархического обучения с подкреплением может стать основой успешного подхода к решению крупномасштабных задач. Хорошим исходным пунктом для дальнейшего изучения литературы по этой теме может служить обзор [759]. В книге Саттона и Барто [1480], двух основоположников этой области, изложение сосредоточено на архитектурах и алгоритмах, а также показано, как методы обучения с подкреплением подпитываются идеями в области обучения, планирования и осуществления действий. В немного более формальной работе [121] приведено строгое изложение основ теории динамического программирования и стохастической сходимости. Статьи по обучению с подкреплением часто публикуются в журналах Machine Learning и Journal of Machine Learning Research, а также в материалах конференций International Conferences on Machine Learning и семинаров Neural Information Processing Systems.
<< В начало < Предыдущая 1 2 3 4 Следующая > В конец >> |